对经济决策的及时数据分析的需求促使大多数经济学家和政策制定者搜索非传统补充数据来源。在这种情况下,正在探索文本数据以丰富传统数据源,因为它易于收集和高度丰富。我们的工作着重于研究文本数据的潜力,特别是新闻文章,以衡量经济政策不确定性(EPU)。经济政策的不确定性被定义为公众无法在新政策和未来经济基本面下预测其决策的结果。量化EPU对政策制定者,经济学家和投资者非常重要,因为它影响了他们对未来经济基本面的期望,并影响其政策,投资和储蓄决策。以前使用新闻文章来衡量EPU的大多数工作都是手册或基于简单的关键字搜索。我们的工作提出了一种基于机器学习的解决方案,涉及较弱的监督,以将新闻文章分类为经济政策不确定性。薄弱的监督被证明是一种有效的机器学习范式,用于在没有或稀缺训练集的低资源设置中应用机器学习模型,利用领域知识和启发式方法。我们进一步产生了基于监督的EPU指数,我们用来进行大量计量经济学分析以及爱尔兰宏观经济指标,以验证我们生成的指数是否预示了较高的宏观经济性能。
translated by 谷歌翻译
多实例学习(MIL)是一种机器学习的范例,旨在对物体(实例)的集合(袋子)进行分类,仅将标签分配给袋子。通过选择要代表每个袋子的实例来解决这个问题,以转换为标准监督学习的MIL问题。可视化可以是通过将用户的知识纳入分类过程来评估学习方案的有用工具。考虑到多个实例学习是无法通过当前可视化技术无法处理的范例,我们提出了一种名为Miltree的基于树的可视化,以支持MIL问题。树的第一级代表袋子,第二级代表属于每个袋的实例,允许用户以直观的方式理解MIL数据集。此外,我们为MIL提出了两个新的实例选择方法,帮助用户进一步提高模型。我们的方法可以处理二进制和多字样。在我们的实验中,SVM用于构建分类器。通过支持Miltree布局,通过更改由原型实例组成的训练集来更新初始分类模型。实验结果验证了我们的方法的有效性,显示Miltree的视觉挖掘可以支持MIL场景中的探索和改进模型,并且我们的实例选择方法在大多数情况下优于当前可用的替代方案。
translated by 谷歌翻译